Einführung in statistisches Denken

Workshop at BFSU 1

Stefan Th. Gries

UC Santa Barbara

JLU Giessen

30 Mar 2026 12-34-56

Einleitung

Einige offensichtliche Ziele empirischer wissenschaftlicher Arbeit

Beschreibung, welche die Frage beantwortet “was passiert(e)?”
Erklärung, welche die Frage beantwortet “warum passiert(e) X?”
Vorhersage, welche die Frage beantwortet “was wird mit X passieren, wenn …?”
Kontrolle, welche die Frage beantwortet “wie kann X beinflusst werden?”

Warum dafür Statistik?

Um Beschreibungen, Erklärungen und Vorhersagen
- objektiv
- genau
- vergleichbar
- kompakt zu machen
um Variabilität zu adressieren und um zu generalisieren: unterschiedliche Stichproben selbst von der gleichen Population werden unterschiedliche Resultate ergeben
- wir müssen daher Variabilität quantifizieren
- wir müssen daher zufällige von systematischer/bedeutsamer Variabilität unterscheiden
um die Robustheit der Generalisierungen zu quantifizieren

Drei zentrale Begriffe

Objektivität: Unabhängigkeit von persönlichen Meinungen
Reliabilität: Genauigkeit (im Sinne von ‘Re-test Reliabilität’)
validität: man misst/quantifiziert, was man messen/quantifizieren möchte (das wichtigste Kriterium)

Probleme, die man mit quantitativer Analyse vermeiden kann

Zwei englische Verben verb₁ und verb₂ (1)

Eine Studie diskutierte die Komplementationspräferenzen von Verb₁ und Verb₂ zu zwei grammatischen Konstruktionen:

addmargins(example_1 <-matrix(c(295, 131, 104, 35), ncol=2,
   dimnames=list(VERB=1:2, PATTERN=1:2)))

     PATTERN
VERB    1   2 Sum
  1   295 104 399
  2   131  35 166
  Sum 426 139 565

    PATTERN
VERB    1    2
   1 0.74 0.26
   2 0.79 0.21

Schlussfolgerung: “[c]omparing the postverbal elements in the two verbs, we can see that the proportion of [pattern₁] for [verb₂] is higher than for [verb₁]” …
ja, 79% > 74%, aber ein bestimmter statistischer Test hätte gezeigt, dass diese Verteilung nicht signifikant (unterschiedlich von einer Zufallsverteilung) ist:


    Pearson's Chi-squared test

data:  example_1
X-squared = 1.5679, df = 1, p-value = 0.2105

mit diesem Test hätte der Autor eine inkorrekte Übergeneralisierung vermeiden können.

Zwei englische Verben verb₁ und verb₂ (2)

Eine andere Studie von zwei englischen Verben Verb₁ and Verb₂ diskutierte ihre Komplementationspräferenzen bzgl. 5 XPs:

addmargins(example_2 <- matrix(c(302,73, 8,0, 145,5, 19,3, 8,0), ncol=5,
   dimnames=list(VERB=1:2, PATTERN=c("NP", "PP", "VP", "AdjP", "AdvP"))))

     PATTERN
VERB   NP PP  VP AdjP AdvP Sum
  1   302  8 145   19    8 482
  2    73  0   5    3    0  81
  Sum 375  8 150   22    8 563

“we find that (a) [verb₁] is more common before noun-phrases than before other constituents” …
ja, 302 ist die höchste Zahl in der ersten Zeile / Tabelle, aber der Fokus der Studies war auf Verb₁ vs. Verb₂, und, verglichen mit Verb₂, Verb₁ tatsächlich dispräferiert NPs:

    PATTERN
VERB    NP    PP    VP  AdjP  AdvP
   1 -1.06  0.44  1.46  0.04  0.44
   2  2.59 -1.07 -3.57 -0.09 -1.07

mit diesem Ansatz/Test hätte der Autor vermeiden können, diesen Effekt zu übersehen.

Überraschungen vermeiden 1

Figure 1

Überraschungen vermeiden 2

Caveats: Man muss beachten …

Statistiken sind nicht für Inhalte verantwortlich – das ist allein der Forscher
Statistiken sind nur nützlich in dem Ausmass, dass der Forscher erfolgreich/vernünftig
- seine Variablen operationalisiert hat
- seine Daten elizitiert/gesammelt/annotiert hat
- die richtige statistische Methode(n) gewählt hat
- diese richtig angewendet hat

Die Phasen empirischer quantitativer Studien

Die Phasen einer empirischen Studie

Exploration (Aufklärung), die zu Variablen führt
Hypothesen (in Textform und statistischer Form)
Datenerhebung (Operationalisierung der Variablen)
Überprüfung der Hypothesen anhand der Daten mittels
- Effektstärken
- Grafiken
- Signifikanztests (p-Werte)

Phase 1 und 2: Das Konzept der Variablen

Variablen
- sind messbare Eigenschaften oder Merkmale eines Objekts
- variieren über verschiedene Items hinweg, wobei “Items” die einzelnen Messungen der Eigenschaften des untersuchten Objekts sind;
- Items können Personen, Ereignisse (Wörter, Äußerungen, …) sein.
Nicht-linguistische Beispiele für Variablen:
- Jahreseinkommen, Anzahl der Kinder, IQ, …
- gewählte Partei bei der letzten Bundestagswahl, Haarfarbe, Familienstand, …
Linguistische Beispiele für Variablen:
- Reaktionszeit auf ein Wort, Wortlänge, …
- Belebtheit (Animacy) einer Subjekt-Nominalphrase: menschlich (Peter) vs. belebt (die Katze) vs. unbelebtes konkretes Objekt (der Tisch) vs. abstrakt (die Zeit), …
Hinweis: Wir müssen uns für eine Auflösung (Skalierung) entscheiden. Beim Jahreseinkommen:
- Zahlen: Der exakte Betrag? Der auf volle US$ gerundete Betrag?
- Rangklassen: ‘negativ’, 0-30.000, 30.001-60.000, 60.001-100.000, 100.001-?
- Kategorien: keines vs. beliebiges? Oder überdurchschnittlich vs. unterdurchschnittlich?

Phase 1 und 2: Variablentypen, Teil 1

Variablen lassen sich nach ihrem Informationsgehalt unterscheiden:
- kategorial (nominal): ‘unterschiedliche Werte → unterschiedliche Eigenschaften’
- ordinal: kategorial + ‘unterschiedliche Werte → unterschiedliche Ränge’
- numerisch (metrisch): kategorial + ordinal + ‘unterschiedliche Werte → messbare Differenzen/Verhältnisse’
Hier sind fiktive Ergebnisse eines olympischen 100m-Laufs – was ist das Informationsniveau jeder Variable in einer Spalte?

`ZEIT`	`PLATZ`	`NAME`	`NUMMER`	`MEDAILLE`
9.86	1	S. Davis	453473	1
9.91	2	J. White	563456	1
10.01	3	S. Hendry	756675	1
20.02	4	C. Lewis	585821	0

ZEIT: num, PLATZ: ord, NAME/NUMMER: kat, MEDAILLE: kommt darauf an

Phase 1 und 2: Variablentypen, Teil 2

Variablen lassen sich nach ihrer Rolle in einer Untersuchung unterscheiden:
- Response (abhängig): die Variable, deren Werte/Verhalten/Variation wir erklären wollen
- Prädiktor (unabhängig): oft die angenommene Ursache für das Verhalten der Response-Variable

Störvariablen (Confounds; kontrolliert, berücksichtigt oder herausgerechnet)
Moderatoren (berücksichtigt durch Interaktionen mit zusätzlichen Variablen)
Collider (anders berücksichtigt)

Phase 1 und 2: Variablentypen, Übung

In den folgenden nicht-linguistischen Beispielen für Texthypothesen: Was ist die Response, was der Prädiktor und welche Informationswerte haben die Variablen?
- Menschen mit Universitätsabschluss sind intelligenter als Menschen ohne Abschluss
- Response: IQ (num) ~ Prädiktor: HATUNIABSCHLUSS (kat): nein vs. ja
- Männer können besser einparken als Frauen
- Response: PARKFÄHIGKEIT (?) ~ Prädiktor: SEX/GESCHLECHT (kat): weiblich vs. männlich

Phase 1 und 2: Variablentypen, Übung

In den folgenden linguistischen Beispielen für Texthypothesen: Was ist die Response, was der Prädiktor und welche Informationswerte haben die Variablen?
- In Aufsätzen machen Nicht-Muttersprachler mehr Fehler als Muttersprachler
- Response: FEHLERZAHL (num) ~ Prädiktor: SPRECHERTYP (kat): Lerner vs. MuttSpr
- Subjekte sind kürzer als Objekte
- Response: LÄNGE (num) ~ Prädiktor: GRAMREL (kat): Objekt vs. Subjekt

Phase 2: Was sind Hypothesen?

Was sind Hypothesen? Eine Definition:
- universelle Aussagen (über ein Einzelereignis hinausgehend)
- implizite Struktur eines Konditionalsatzes:
  - Wenn [Prädiktor] …, dann [Response] …
  - Je mehr/weniger [Prädiktor] …, desto mehr/weniger [Response] …
- potenziell falsifizierbar
- empirisch testbar
die vielleicht nützlichste Definition: Eine Aussage, die eine Verteilung von einer oder mehreren Response-Variablen postuliert
Hypothesen treten in verschiedenen Arten auf

Phase 2: Arten von Hypothesen

Texthypothesen vs. statistische Hypothesen (→ Operationalisierung)
Alternativhypothese H₁: eine Aussage, die Folgendes postuliert:
- eine bestimmte Verteilung einer (Response-)Variable (Anpassungsgüte/Goodness-of-fit)
- eine Beziehung zwischen 1+ Prädiktoren & 1+ Response-Variablen (Unabhängigkeit/Unterschied(e))
  - postuliert einen Unterschied, aber nicht dessen Richtung: ungerichtet/zweiseitig
  - z.B.: Subjekte und Objekte unterscheiden sich in ihrer Länge
  - postuliert einen Unterschied und dessen Richtung: gerichtet/einseitig
  - z.B.: Subjekte sind kürzer als Objekte
Nullhypothese H₀: das logische Gegenstück zur H₁: eine Alternativhypothese mit einem nicht darin

Phase 2: Operationalisierung 1

Operationalisierung: der Schritt von Texthypothesen zu statistischen Hypothesen
- Schritt 1: Formulierung der Variablen in den Texthypothesen so, dass sie Zahlen enthalten
- Schritt 2: Wahl eines statistischen Maßes, das auf diese Zahlen angewendet wird
Nicht-linguistische Beispiele:
- Einparkkompetenz
- körperliche Fitness
- finanzieller Wohlstand
Linguistische Beispiele:
- Kenntnis einer Fremdsprache
- die Länge von Subjekten und Objekten

Phase 2: Operationalisierung 2

Operationalisierung: Der Schritt von Texthypothesen zu statistischen Hypothesen
- Schritt 1: Formulierung der Variablen in den Texthypothesen so, dass sie Zahlen enthalten
- Schritt 2: Wahl eines statistischen Maßes, das auf diese Zahlen angewendet wird
Häufigste statistische Maße:
- Häufigkeiten/Frequenzen
- Mittelwerte/Durchschnitte
- Korrelationen
- Verteilungen (Distributions) und Streuungen (Dispersions)
Welche Statistik nutzen wir für die Länge von Subjekten & Objekten?
- Gesamtsumme der Längen (Häufigkeiten)?
- Mittelwerte der Längen (Durchschnitte)?

Phase 2: Ein Beispiel

Stellen Sie sich folgende alternative Texthypothese vor: “Über alle Teilsätze hinweg sind Subjekte im Englischen kürzer als Objekte.”
- Wie lautet die entsprechende Nullhypothese?
- “Über alle Teilsätze hinweg sind Subjekte im Englischen nicht kürzer als Objekte.”
Welche Variablen sind beteiligt?
- Response: LÄNGE (numerisch) ~ Prädiktor: GRAMREL (binär/kategorial)
Wie operationalisieren wir sie?
- LÄNGE: Nutzen wir die Länge in Wörtern
- GRAMREL:
  - Objekt: Die NP, die das ‘Ziel’ der Handlung eines transitiven Verbs ist und bei Passivierung zum Subjekt werden könnte
  - Subjekt: Die NP, die die verbale Morphologie/Kongruenz bestimmt und prototypisch den Agens der Handlung bezeichnet
Welche Statistik nutzen wir?
- Durchschnittliche Länge aller Objekte vs. durchschnittliche Länge aller Subjekte (nicht paarweise!)

Phase 3: Regeln zur Datenspeicherung

Angenommen, Sie untersuchen dies mit Korpora und erheben folgende Korpusdaten:
- Die jungen Männer verzehren die niedliche kleine Katze
- Sie war am schlafen (Hinweis: kein Objekt!)
- Der schnelle braune Fuchs biss den faulen Hund
Regel: Speichern Sie die Daten im sogenannten Fall/Variablen-Format (case-by-variable):
- Jeder Datenpunkt (d.h. Messung der Response-Variable) erhält eine eigene Zeile
- Jede Variable oder jedes andere Merkmal eines Datenpunkts erhält eine eigene Spalte
- Die allererste Zeile enthält die Namen aller Variablen (Header)
- Fehlende Daten werden als NA markiert – nicht mit leeren Zellen!
- Verwenden Sie nicht Zahlen für die Ausprägungen von kategoriale Variablen

Phase 3: Datenspeicherung (nicht ideal)

Table 1: Ungünstiges Format

SATZ	SUBJ	OBJ
Die jungen Männer verzehren die niedliche kleine Katze	3	4
Sie war am schlafen	1
Der schnelle braune Fuchs biss den faulen Hund	4	3

Denken Sie daran: Jeder Datenpunkt sollte eine eigene Zeile haben
Denken Sie daran: Jede Variable sollte eine eigene Spalte haben
Wie viele Datenpunkte/Längen haben wir? 6 (und eine/r sollte NA sein), aber …
- … jede Zeile hat 2 Datenpunkte von LÄNGE, nicht einen
Wie viele Variablen? 2: LÄNGE und GRAMREL, aber …
- … die Spalten 2 und 3 repräsentieren die Ausprägungen (levels) einer Variable (GRAMREL), nicht die Variable selbst

Phase 3: Datenspeicherung (besser)

Ein Format wie dieses wäre besser:

Table 2: Besseres Standardformat

`FALL`	`ITEM`/`SATZ`	`LÄNGE`	`GRAMREL`
1	Die jungen Männer verzehren die niedliche kleine Katze	3	subj
2	Die jungen Männer verzehren die niedliche kleine Katze	4	obj
3	Sie war am schlafen	1	subj
4	Sie war am schlafen	NA	obj
5	Der schnelle braune Fuchs biss den faulen Hund	4	subj
6	Der schnelle braune Fuchs biss den faulen Hund	3	obj

Wie viele Variablen? 2, das sind die beiden Hauptspalten rechts
Wie viele Datenpunkte/Längen? 6, so viele Zeilen haben wir

Phase 3: Datenspeicherung (Exkurs)

Wenn man diese Studie nicht über alle Teilsätze durchführte (d.h. inklusive Sätzen ohne Objekt), …
… sondern nur Sätze mit genau einem Subjekt und einem Objekt nutzte (d.h. jedes Subjekt/Objekt ist genau einem Objekt/Subjekt paarweise zugeordnet), …
dann könnte man theoretisch auch dieses Format nutzen:

Table 3: Mögliche Darstellung für perfekt paarweise Daten

SENTENCE	SUBJ	OBJ	DIFF
Die jungen Männer verzehren die niedliche kleine Katze	3	4	-1
Er schloss die Tür	1	2	-1
Der schnelle braune Fuchs biss den faulen Hund	4	3	1

Aber selbst in dieser Situation sollte die zuerst vorgestellte Alternative Ihr Standard sein.

Phase 3: Datenspeicherung: direkter Vergleich

Die Logik des Hypothesentests

Die wissenschaftliche Methode

Die Logik statistischen Testens ist die der Hypothesenfalsifizierung:
- Man beweist nicht, dass die eigene H₁ korrekt ist,
- man ‘beweist’, dass die entsprechende H₀ falsch ist, was bedeutet, dass die eigene H₁ richtig ist
Schritte:
- Vor der Datengewinnung definiert man ein Signifikanzniveau p_kritisch, welches quantifiziert, wie schnell man H₀ ablehnt / H₁ akzeptiert
- Man sammelt die Daten, wertet sie aus und berechnet den in den Daten beobachteten Effekt e (mittels der Statistik aus der statistischen Hypothese)
- Man berechnet die sog. Fehlerwahrscheinlichkeit p, wie wahrscheinlich es ist, e zu finden, wenn H₀ korrekt ist
- Entscheidung:
  - Wenn p < p_kritisch, lehnt man H₀ ab und akzeptiert H₁
  - Wenn p ≥ p_kritisch, muss man bei H₀ bleiben und kann H₁ nicht akzeptieren

Münzwurf 100 Mal, Szenario 1

Wir spielen ein Spiel und werfen eine Münze 100 Mal: Kopf: 1$ für mich; Zahl: 1$ für Sie
Ihre Hypothesen:
- H₀: Beide Spieler sind ehrlich: p_Kopf = p_Zahl = 0,5
- H₁: STG ist nicht ehrlich: p_Kopf > 0,5 und p_Zahl < 0,5
Das Signifikanzniveau ist (wie fast immer) auf 0,05 festgelegt
Nach dem Spiel, wie oft müssen Sie nun verloren haben, bevor Sie beginnen, mich des Betrugs zu bezichtigen (d.h. H₁ zu akzeptieren)?
- Wenn Sie 51 Mal verlieren?
- Wenn Sie 55 Mal verlieren?
- Wenn Sie 59 Mal verlieren?
Was tun Sie? Sie betrachten einen Effekt e (das Ergebnis STG: 3 vs. Sie: 0, d.h. Ihre Verluste) und bestimmen, wann e zu unwahrscheinlich wird, um noch an H₀ zu glauben

Münzwurf nur 3 Mal

Sie legen das Signifikanzniveau fest: p_kritisch = 0,05
Wir spielen, Sie verlieren 3 von 3 Mal: Der Effekt e ist 3:0.

Wurf 1	Wurf 2	Wurf 3	Kopf	Zahl	p_Ergebnis
Kopf	Kopf	Kopf	3	0	0,125
Kopf	Kopf	Zahl	2	1	0,125
Kopf	Zahl	Kopf	2	1	0,125
Kopf	Zahl	Zahl	1	2	0,125
Zahl	Kopf	Kopf	2	1	0,125
Zahl	Kopf	Zahl	1	2	0,125
Zahl	Zahl	Kopf	1	2	0,125
Zahl	Zahl	Zahl	0	3	0,125

Fehlerwahrscheinlichkeit p = 0,125 (von 3:0)
Entscheidung: p > p_kritisch: Sie müssen bei H₀ bleiben.

Häufigeres Münzwerfen

Münzwurf 100 Mal, Szenario 2

Wir spielen ein Spiel, werfen die Münze 100 Mal: Kopf: 1$ für mich; Zahl: 1$ für Sie
Die Hypothesen eines unabhängigen Beobachters:
- H₀: Beide Spieler sind ehrlich: p_Kopf = p_Zahl = 0,5
- H₁: Mindestens ein Spieler ist nicht ehrlich: p_Kopf > 0,5 oder p_Kopf < 0,5
Das Signifikanzniveau ist (wie fast immer) auf 0,05 festgelegt
Wie oft muss einer von uns verlieren, bevor der unabhängige Beobachter beginnt, den anderen des Betrugs zu bezichtigen (d.h. H₁ zu akzeptieren)?
- Wenn jemand 51 Mal verliert?
- Wenn jemand 56 Mal verliert?
- Wenn jemand 61 Mal verliert?
Was tut der unabhängige Beobachter? Er betrachtet einen Effekt e (die Ergebnisse Jemand: 3 vs. Jemand anderes: 0) und bestimmt, wann e zu unwahrscheinlich wird, um noch an H₀ zu glauben.

Münzwurf nur 3 Mal

Ein unabhängiger Beobachter legt das Signifikanzniveau fest: p_kritisch = 0,05
Wir spielen, einer von uns (Sie) verliert 3 von 3 Mal: Der Effekt e ist 3:0.

Wurf 1	Wurf 2	Wurf 3	Kopf	Zahl	p_Ergebnis
Kopf	Kopf	Kopf	3	0	0,125
Kopf	Kopf	Zahl	2	1	0,125
Kopf	Zahl	Kopf	2	1	0,125
Kopf	Zahl	Zahl	1	2	0,125
Zahl	Kopf	Kopf	2	1	0,125
Zahl	Kopf	Zahl	1	2	0,125
Zahl	Zahl	Kopf	1	2	0,125
Zahl	Zahl	Zahl	0	3	0,125

Fehlerwahrscheinlichkeit p = 0,125 (aus 3:0) + 0,125 (aus 0:3) = 0,25
Entscheidung: p > p_kritisch: Der Beobachter muss bei H₀ bleiben.

Häufigeres Münzwerfen

Lektionen, Teil 1

Lektion 1 betrifft Verteilungen und parametrisches Testen:
In diesem Fall von Binomialversuchen erhalten wir mit zunehmendem Stichprobenumfang
- eine glockenförmige Normalverteilung …
- selbst wenn die ‘Eingangswahrscheinlichkeit’ nicht normalverteilt ist
Wenn also die Stichproben groß genug sind und die Verteilung einfach beschreibbar aussieht, dann …
… können wir einen parametrischen/asymptotischen Test verwenden – aber nur dann!

Lektionen, Teil 2

Lektion 2 betrifft Alternativhypothesen; es gibt
- gerichtete/einseitige Alternativhypothesen:
  - sie postulieren einen Effekt, einen Unterschied oder eine Korrelation,
  - und deren Richtung (oben: Sie).
- ungerichtete/zweiseitige Alternativhypothesen:
  - sie postulieren einen Effekt, einen Unterschied oder eine Korrelation,
  - aber nicht deren Richtung (oben: der unabhängige Beobachter).
Vorwissen wird belohnt: erstere sind leichter zu akzeptieren.
Aber woher kommen diese p-Werte?

Phase 4: Auswertung und Interpretation

Wahl einer Methode/eines Tests, Teil 1

Welche Art von Studie wird durchgeführt?
- Deskriptiv, explorativ, hypothesengenerierend
- Hypothesenprüfend
Wie viele und welche Arten von Variablen sind beteiligt?
- 1 Response (Anpassungstests/Goodness-of-fit)
- 1 Response & 1 Prädiktor (monofaktorieller Test auf Unabhängigkeit oder Unterschiede)
- 1 Response & 2+ Prädiktoren (multifaktorielle Analysen)
- 2 Responses (multivariate Analysen)
Sind die Datenpunkte so verknüpft, dass man sie sinnvoll einander zuordnen kann?
- nein: Tests für unabhängige Stichproben
- ja: Tests für abhängige Stichproben
- letztere sind gewöhnlich aussagekräftiger (powerful).

Wahl einer Methode/eines Tests, Teil 2

Was ist die Statistik der abhängigen Variable in der statistischen Hypothese?
- Häufigkeiten/Frequenzen → oft Chi-Quadrat-Tests
- Verteilungen → oft Kolmogorov-Smirnov-Test
- Mittelwerte → oft t-Tests
- Streuungen → oft F-Tests
- Korrelationen → oft r oder ρ oder τ
Wie sieht die Verteilung der Daten aus?
- normal: Führt oft zu parametrischen Tests.
- nicht-normal: Führt oft zu nicht-parametrischen, Simulations- oder exakten Tests.
Wie groß sind die zu erhebenden Stichproben?
- < 30: Oft ein Risiko für die Normalitätsannahme.
- ≥ 30: Unterstützt oft die Normalitätsannahme.

Signifikanztest (erneut)

Ihr Ergebnisteil sollte üblicherweise enthalten:
- den beobachteten Effekt e
- Signifikanzergebnisse aus (einem) Test(s)
- Wie beide Aspekte zu Ihren Hypothesen stehen
Aber nochmals: Der p-Wert gibt an, wie wahrscheinlich das beobachtete Ergebnis unter der H₀ ist – sonst nichts

Denken Sie daran, dass der Standard-p-Wert in den Geistes- und Sozialwissenschaften
0,05 beträgt.
[...] Was bedeutet diese statistische Signifikanz? Es bedeutet, dass
eine mindestens 95%ige Chance besteht, dass die Nullhypothese *falsch* ist.

Das ist völlig falsch:
- Dieser Autor: p ist p(H₀ = FALSE | Daten)
- Tatsächlich: p ist p(Daten | H₀ = TRUE)
Oft unterscheidet man ‘Signifikanzniveaus’:
- p < 0,001 (hochsignifikant) vs. 0,01 > p ≥ 0,001 (sehr signifikant) vs. 0,05 > p ≥ 0,01 (signifikant)
- 0,1 > p ≥ 0,05: marginal signifikant – unsinnig, nutzen Sie das nicht

Effektstärken

Wie erwähnt, sollten Ihre Ergebnisse auch Effektstärken enthalten
Effektstärken korrelieren mit p-Werten, aber nicht deterministisch: Oft gilt:
- starke Effekte sind signifikant
- schwache Effekte sind nicht signifikant
Aber:
- Bei großen Stichproben können selbst sehr schwache Effekte signifikant sein
- Bei großer Variabilität können selbst starke Effekte nicht signifikant sein

Lerner	of-Gen	s-Gen	Summe
Chinesisch	20	15	35
Deutsch	15	20	35
Summe	35	35	70

   p-value odds ratio 
    0.2320     1.7778

Lerner	of-Gen	s-Gen	Summe
Chinesisch	200	150	350
Deutsch	150	200	350
Summe	350	350	700

   p-value odds ratio 
    0.0002     1.7778

Sie müssen Signifikanz und Effektstärke im Kopf trennen:
- Signifikanz: Wie wahrscheinlich ist der Effekt, wenn ‘in Wirklichkeit gar nichts da ist’?
- Effektstärke: Wie groß/stark ist der Effekt, ungeachtet dessen, ob er zufällig ist?

Signifikanz durch Simulation annähern

Für 20 Nomen haben Sie gemessen …

Einen Prädiktor IMAGEABILITY: Ob man sich das Referenzobjekt des Nomens vorstellen/visualisieren kann (n: ‘nein’ vs. y: ‘ja’) und
eine Response RT: Ein Reaktionszeit-Score von 1 (am schnellsten) bis 20 (am langsamsten).
Sehen Sie sich diese fast perfekte Korrelation an:

Figure 3: Die Korrelation zwischen RT und IMAGEABILITY

Wie bestimmen wir, ob dieser Effekt e signifikant ist?

Der beobachtete Effekt e (n-y) ist 14 minus 7 = 7, aber H₀ postuliert einen Effekt von 0
Wie wäre es, wenn wir relevante H₀-Daten generieren und prüfen, wie der beobachtete Effekt e im Vergleich zu diesen H₀-Daten abschneidet?
Relevante H₀-Daten
- haben die gleichen IMAGEABILITY-Häufigkeiten von n und y (jeweils 10) &
- haben die gleichen RT-Werte, aber
- sind zufällig und damit mit H₀ vereinbar – wie?
Ganz einfach: Wir zerstören den Zusammenhang von RT ~ IMAGEABILITY (n → langsam / y → schnell), indem wir die Werte des Prädiktors IMAGEABILITY zufällig neu anordnen (randomisieren)!

RT ~ IMAGEABILITY (randomisiert 1)

set.seed(1); d_rand <- data.frame(RT=d$RT, IMAGEABILITY=sample(d$IMAGEABILITY))

Figure 4: Korrelation zwischen RT und randomisierter IMAGEABILITY 1

RT ~ IMAGEABILITY (randomisiert 2)

d_rand <- d_rand <- data.frame(RT=d$RT, IMAGEABILITY=sample(d$IMAGEABILITY))

Figure 5: Korrelation zwischen RT und randomisierter IMAGEABILITY 2

RT ~ IMAGEABILITY (randomisiert 3)

d_rand <- d_rand <- data.frame(RT=d$RT, IMAGEABILITY=sample(d$IMAGEABILITY))

Figure 6: Korrelation zwischen RT und randomisierter IMAGEABILITY 3

Wir brauchen dies viel öfter …

Lassen Sie uns nicht 3, sondern 100.000 zufällige H₀-Verteilungen generieren, d.h. 100.000 theoretisch moegliche Effekte e, …

Figure 7: Die ersten 10 von 100.000 Zufallsverteilungen

… was sich im Durchschnitt auf 0 einpendeln sollte

Aber wie werten wir das aus?

Figure 8: Histogramm der H0-Korrelationen zwischen RT und IMAGEABILITY

Wir können alle H₀-Effekte e_1-100.000 darstellen, z.B. in einem Histogramm
Wir können eine vertikale gepunktete Linie hinzufügen, die den tatsächlich beobachteten Effekt e von 7 darstellt
Wir können zählen, wie oft wir einen Wert von 7 oder höher in den H₀-Daten erhalten und …
… das als Prozentsatz ausdrücken – das ist p
Hier ist p = 0.0034 – der beobachtete Unterschied von 7 zwischen Objekten und Subjekten ist signifikant (weicht signifikant von 0 ab)

Wie gut funktioniert das?

Zur Erinnerung: Der p-Wert aus der Simulation beträgt 0.0034.
Der ‘Goldstandard’-p-Wert aus einem exakten (!) t-Test für unabhängige Stichproben ist 0.00342, …
… was bedeutet, dass der Simulationsansatz ein nahezu perfektes Ergebnis erzielt
Was ist mit dem parametrischen t-Test (nach Welch)?
- Sein p-Wert ist 0.00232, was ebenfalls sehr nah dran ist (aber schlechter als die Simulation!)
Was ist mit dem parametrischen t-Test (nach Student)?
- Sein p-Wert ist 0.00227, was ebenfalls nah dran ist (aber schlechter als die Simulation!)
Simulationsbasierte Ansätze sind sehr vielseitig und nützlich – sie können oft helfen, wenn kaum etwas anderes funktioniert!

Einführung in statistisches Denken

Einleitung

Einige offensichtliche Ziele empirischer wissenschaftlicher Arbeit

Warum dafür Statistik?

Drei zentrale Begriffe

Probleme, die man mit quantitativer Analyse vermeiden kann

Zwei englische Verben verb1 und verb2 (1)

Zwei englische Verben verb1 und verb2 (2)

Überraschungen vermeiden 1

Überraschungen vermeiden 2

Caveats: Man muss beachten …

Die Phasen empirischer quantitativer Studien

Die Phasen einer empirischen Studie

Phase 1 und 2: Das Konzept der Variablen

Phase 1 und 2: Variablentypen, Teil 1

Phase 1 und 2: Variablentypen, Teil 2

Phase 1 und 2: Variablentypen, Übung

Phase 1 und 2: Variablentypen, Übung

Phase 2: Was sind Hypothesen?

Phase 2: Arten von Hypothesen

Phase 2: Operationalisierung 1

Phase 2: Operationalisierung 2

Phase 2: Ein Beispiel

Phase 3: Regeln zur Datenspeicherung

Phase 3: Datenspeicherung (nicht ideal)

Phase 3: Datenspeicherung (besser)

Phase 3: Datenspeicherung (Exkurs)

Phase 3: Datenspeicherung: direkter Vergleich

Die Logik des Hypothesentests

Die wissenschaftliche Methode

Münzwurf 100 Mal, Szenario 1

Münzwurf nur 3 Mal

Häufigeres Münzwerfen

Münzwurf 100 Mal, Szenario 2

Münzwurf nur 3 Mal

Häufigeres Münzwerfen

Lektionen, Teil 1

Lektionen, Teil 2

Phase 4: Auswertung und Interpretation

Wahl einer Methode/eines Tests, Teil 1

Wahl einer Methode/eines Tests, Teil 2

Signifikanztest (erneut)

Effektstärken

Signifikanz durch Simulation annähern

Für 20 Nomen haben Sie gemessen …

Wie bestimmen wir, ob dieser Effekt e signifikant ist?

RT ~ IMAGEABILITY (randomisiert 1)

RT ~ IMAGEABILITY (randomisiert 2)

RT ~ IMAGEABILITY (randomisiert 3)

Wir brauchen dies viel öfter …

Aber wie werten wir das aus?

Wie gut funktioniert das?

Zwei englische Verben verb₁ und verb₂ (1)

Zwei englische Verben verb₁ und verb₂ (2)